鉴定新型药物靶标相互作用(DTI)是药物发现中的关键和速率限制步骤。虽然已经提出了深入学习模型来加速识别过程,但我们表明最先进的模型无法概括到新颖(即,从未见过的)结构上。我们首先揭示负责此缺点的机制,展示模型如何依赖于利用蛋白质 - 配体二分网络拓扑的捷径,而不是学习节点特征。然后,我们介绍AI-BIND,这是一个与无监督的预训练的基于网络的采样策略相结合的管道,使我们能够限制注释不平衡并改善新型蛋白质和配体的结合预测。我们通过预测具有结合亲和力的药物和天然化合物对SARS-COV-2病毒蛋白和相关的人蛋白质来说明Ai-reat的值。我们还通过自动扩展模拟和与最近的实验证据进行比较来验证这些预测。总体而言,AI-Bind提供了一种强大的高通量方法来识别药物目标组合,具有成为药物发现中强大工具的可能性。
translated by 谷歌翻译
Python已成为机器学习(ML),深度学习(DL)和数据科学(DS)等新兴领域的主要编程语言。 Python的一个有吸引力的功能是,它提供易于使用的编程界面,同时允许图书馆开发人员通过利用高性能计算(HPC)平台提供的计算能力来提高其应用程序的性能。有效的通信是在并行系统上扩展应用程序的关键,通常通过HPC硬件上的消息传递接口(MPI)标准库(MPI)标准库来启用该应用程序。 MPI4PY是一个基于Python的通信库,为Python应用程序提供了类似MPI的接口,允许应用程序开发人员利用包括GPU在内的并行处理元素。但是,目前尚无基准套件来评估现代HPC系统上MPI4PY和PYTHON MPI代码的通信性能。为了弥合这一差距,我们提出了OMB-PY-开源OSU微基准(OMB)套件的Python扩展 - 旨在评估Python中基于MPI的并行应用的通信性能。据我们所知,OMB-PY是平行Python应用程序的第一间通信基准套件。 OMB-PY由各种点对点和集体通信基准测试组成,这些测试适用于一系列流行的Python库,包括Numpy,Cupy,Numba和Pycuda。我们的评估表明,与天然MPI库相比,MPI4PY引入了一个小开销。我们计划公开发布OMB-PY,以使Python HPC社区受益。
translated by 谷歌翻译
特征提取是图分析中的重要任务。这些特征向量(称为图形描述符)用于基于下游矢量空间的图形分析模型。过去证明了这个想法,基于光谱的图形描述符提供了最新的分类准确性。但是,要计算有意义的描述符的已知算法不会扩展到大图,因为:(1)它们需要将整个图存储在内存中,并且(2)最终用户无法控制算法的运行时。在本文中,我们提出流算法以大约计算三个不同的图形描述符,以捕获图的基本结构。在边缘流上操作使我们避免将整个图存储在内存中,并控制样本大小使我们能够将算法的运行时间保持在所需的范围内。我们通过分析近似误差和分类精度来证明所提出的描述符的功效。我们的可扩展算法计算图形的描述符,并在几分钟之内具有数百万个边缘。此外,这些描述符得出的预测精度可与最新方法相当,但只能使用25%的记忆来计算。
translated by 谷歌翻译